终端与长 horizon 评测

Terminal-Bench、LongCLI-Bench、LOCA-bench 各补 SWE-bench 哪块盲区

核心要点：

Terminal-Bench：纯 CLI 任务，补 SWE-bench 盲区

LongCLI-Bench：长 horizon，通过率低于 20%

LOCA-bench：可控上下文增长压测

现实任务暴露能力上限

长任务普遍早崩

本文讲 SWE-bench 之外的评测维度。SWE-bench 家族见 02-SWE-bench家族。

SWE-bench 测不到什么？

核心问题：一个 agent SWE-bench 高分，是不是就什么都能干？

SWE-bench 不测纯命令行操作、不测超长任务，这两块是它的盲区。它聚焦"改代码修 issue"，但 agent 在真实环境还要做系统管理、CLI 工具链、长流程任务，这些需要专门的 benchmark。

下面三个 benchmark 各补一块盲区：Terminal-Bench 补 CLI,LongCLI-Bench 补长 horizon,LOCA-bench 补上下文增长压力。

Terminal-Bench 测什么？

核心问题：agent 在命令行里干活的能力，怎么量化？

Terminal-Bench 用一批真实命令行任务测 agent 的终端操作能力，前沿模型完成率低于 65%[1]。它覆盖 SWE-bench 不碰的系统管理、安全、数据科学等 CLI 任务。

89 个任务以任务完成率评测，涉及 shell 脚本、CLI 工具、进程管理、文件系统操作。前沿模型低于 65% 的成绩说明：会改代码不等于会用终端——纯 CLI 操作是独立的能力维度。这与 agent 实际工作环境高度相关（多数 agent 通过终端干活）。

长 horizon 任务为什么难？

核心问题：任务步数从几步变成几十步，agent 表现会怎样？

长 horizon 任务上 agent 普遍早崩，最强 agent 通过率低于 20%[2]。LongCLI-Bench 用 20 个长 horizon 编程任务测这一维度。

它的发现很尖锐：任务普遍在完成 30% 前就崩溃，且自纠正效果甚微——错误一旦累积，agent 难以靠自我修复挽回(06-规划与自纠/03 的反思机制在长任务上效力有限)。它用 F2P+P2P + 步骤级打分，能定位 agent 在第几步开始失控。可借鉴的判断：短任务的高成功率无法外推到长任务，长 horizon 是独立且更难的能力。

LOCA-bench 怎么测上下文增长？

核心问题：上下文越堆越长时，agent 的退化能不能被量化？

LOCA-bench 把上下文从 8K 可控扩展到 256K，测 agent 在上下文增长下的表现[3]。它用 7 个上下文长度档、每档 75 个实例（共 525 样本）系统地拉长上下文。

核心发现是验证了 context rot：上下文增长导致性能退化，而先进的上下文管理能改善成功率(对应 02-上下文工程的窗口内组织与记忆管理)。LOCA-bench 的价值在于把"上下文长度"变成可控变量，让上下文管理方案的收益可量化。可借鉴的判断：评测 agent 要把上下文长度当成独立变量，而非固定条件。

Takeaway

知识点	核心结论
SWE-bench 盲区	不测纯 CLI、不测超长任务
Terminal-Bench	89 个 CLI 任务，前沿模型 <65%，会改码≠会用终端
LongCLI-Bench	长 horizon 通过率 <20%,30% 前崩溃，自纠效力弱
LOCA-bench	8K→256K 可控增长，量化 context rot 与上下文管理收益
共同启示	短任务高分不可外推，CLI/长任务/上下文是独立维度

参考资料

Terminal-Bench: Benchmarking Agents on Hard, Realistic Tasks in Command Line Interfaces. arXiv:2601.11868, 2026. https://arxiv.org/abs/2601.11868
LongCLI-Bench: A Benchmark for Long-horizon Agentic Programming in Command-Line Interfaces. arXiv:2602.14337, 2026. https://arxiv.org/abs/2602.14337
LOCA-bench: Benchmarking Language Agents Under Controllable and Extreme Context Growth. arXiv:2602.07962, 2026. https://arxiv.org/abs/2602.07962

SWE-bench 测不到什么？​

Terminal-Bench 测什么？​

长 horizon 任务为什么难？​

LOCA-bench 怎么测上下文增长？​

Takeaway​

参考资料​

延伸阅读​